安藤 正和
\[ p(y_1,\dots,y_{129}|\theta)=\theta^{\sum_{i=1}^{129}y_i}(1-\theta)^{129-\sum_{i=1}^{129}y_i} \]
\[ \mathrm{Pr}(a\leq\theta\leq b) =\mathrm{Pr}(a+c\leq\theta\leq b+c)\ (0\leq a<b< b+c\leq1) \]
\[ \begin{align} p(\theta|y_1,\dots,y_{129})&=\frac{p(y_1,\dots, y_{129}|\theta)p(\theta)}{p(y_1,\dots,y_{129})}\\ &=p(y_1,\dots,y_{129}|\theta)\times \frac{1}{p(y_1,\dots,y_{129})}\\ &\propto p(y_1,\dots,y_{129}|\theta) \end{align} \]
ある\(\theta\)が与えられたもとでのこれらのデータの確率(標本モデル)は
\[ p(y_1,\dots,y_{129}|\theta)=\theta^{118}(1-\theta)^{11} \]
標本モデル(上)と事後確率(下)
尺度を揃えたい!!→正規化定数を求めよう
\[ \begin{align} p(\theta|y_1 ,\dots,y_{129})&=\theta^{118}(1-\theta)^{11}\frac{p(\theta)}{p(y_1,\dots,y_{129})}\\ &=\theta^{118}(1-\theta)^{11}\times1/p(y_1,\dots,y_{129})\\ \end{align} \]
ベータ関数とガンマ関数の関係より
\[ \int^1_0\theta^{a-1}(1-\theta)^{b-1}d\theta=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \]
事後分布は確率分布なのでパラメータが取りうる範囲で積分したら1になるから
\[ 1=\frac{\Gamma(119)\Gamma(12)}{\Gamma(131)}\times1/p(y_1,\dots,y_{129})\\ p(y_1,\dots,y_{129})=\frac{\Gamma(119)\Gamma(12)}{\Gamma(131)} \]
0~1の間に値をとる確率変数\(\theta\)がベータ分布\(\mathrm{beta}(a,b)\)に従うとは
\[ p(\theta)\equiv\mathrm{dbeta}(\theta,a,b)=\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1} \]
今回のデータ\((Y_1,\dots,Y_{129})=(y_1,\dots,y_{129}), \sum_{i=1}^{129}=118\)が観測されている時
\(Y_1,\dots,Y_n|\theta\)を\(\mathrm{binary}(\theta)\)から独立同一標本(i.i.d)とするとき
\[ p(\theta|y_1,\dots,y_n)=\frac{\theta^{\sum y_i}(1-\theta)^{n-\sum y_i}p(\theta)}{p(y_1,\dots,y_n)} \]
もし、任意の二つの\(\theta(\theta_a,\theta_b)\)の値の相対確率を計算したければ
\[ \begin{align} \frac{p(\theta_a|y_1,\dots,y_n)}{p(\theta_b|y_1,\dots,y_n)}&= \frac{\theta_a^{\sum y_i}(1-\theta_a)^{n-\sum y_i}\times p(\theta_a)/p(y_1,\dots,y_n)} {\theta_b^{\sum y_i}(1-\theta_b)^{n-\sum y_i}\times p(\theta_b)/p(y_1,\dots,y_n)}\\ &=\left(\frac{\theta_a}{\theta_b}\right)^{\sum y_i} \left(\frac{1-\theta_a}{1-\theta_b}\right)^{n-\sum y_i}\frac{p(\theta_a)}{p(\theta_b)} \end{align} \]
確率変数\(Y\in\{0,1,\dots,n\}\)が二項分布\(\mathrm{binomial}(n,\theta)\)に従うというのは
\[ \mathrm{Pr}(Y=y|\theta)\equiv\mathrm{dbinom}(y,n,\theta)=\binom{n}{y}\theta^y(1-\theta)^{n-y}, y\in\{0,1,\dots,n\} \]
\(Y=y\)を観測した時、\(\theta\)の事後分布を求めるには
\[ \begin{align} p(\theta|y)&=\frac{p(y|\theta)p(\theta)}{p(y)}\\ &=\frac{\binom{n}{y}\theta^y(1-\theta)^{n-y}p(\theta)}{p(y)}\\ &=c(y)\theta^y(1-\theta)^{n-y}p(\theta) \end{align} \]
\[ \begin{align} 1=\int_0^1c(y)\theta^y(1-\theta)^{n-y}d\theta &\Longleftrightarrow 1=c(y)\int_0^1\theta^y(1-\theta)^{n-y}d\theta\\ &\Longleftrightarrow1=c(y)\frac{\Gamma(y+1)\Gamma(n-y+1)}{\Gamma(n+2)} \end{align} \]
よって事後分布は
\[ \begin{align} p(\theta|y)&=\frac{\Gamma(n+2)}{\Gamma(y+1)\Gamma(n-y+1)}\theta^y(1-\theta)^{n-y}\\ &=\frac{\Gamma(n+2)}{\Gamma(y+1)\Gamma(n-y+1)}\theta^{(y+1)-1}(1-\theta)^{(n-y+1)-1}\\ &=\mathrm{beta}(y+1, n-y+1) \end{align} \]
幸福度データの例では\(Y=y=118, n-y=11\)なので、
事後分布は\(p(\theta|y_1,\dots,y_{129})=\mathrm{beta}(119,12)\)となる
\(a=1,b=1\)をもつベータ分布(\(\mathrm{beta}(1,1)\))も一様分布とみなすことができる
\[ p(\theta)=\frac{\Gamma(2)}{\Gamma(1)+\Gamma(1)}\theta^{1-1}(1-\theta)^{1-1}=\frac{1}{1\times1}1\times1=1 \]
任意のパラメータをもつベータ分布\(\mathrm{beta}(a,b)\)の時には
\[ \begin{align} p(\theta|y)&=\frac{p(y|\theta)p(\theta)}{p(y)}\\ &=\frac{1}{p(y)}\times\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}\times\binom{n}{y}\theta^y(1-\theta)^{n-y}\\ &=c(n,y,a,b)\times\theta^{a+y-1}(1-\theta)^{b+n-y-1}\\ &=\mathrm{dbeta}(\theta,a+y,b+n-y) \end{align} \]
\(\theta\)に対する事前分布のクラス\(\mathcal{P}\)が標本モデル\(p(y|\theta)\)に対して共役であるとは
\[ p(\theta)\in\mathcal{P}\Rightarrow p(\theta|y)\in \mathcal{P} \]
事後期待値に着目すると
\[ \begin{align} \mathrm{E}[\theta|y]&=\frac{a+y}{a+b+n}\\ &=\frac{a+b}{a+b+n}\frac{a}{a+b}+\frac{n}{a+b+n}\frac{y}{n}\\ &=\frac{a+b}{a+b+n}\times 事前期待値+\frac{n}{a+b+n}\times 標本平均 \end{align} \]
\[ \begin{align} \mathrm{Pr}(\tilde{Y}=1|y_1,\dots,y_n)&=\int \mathrm{Pr}(\tilde{Y}=1,\theta|y_1,\dots,y_n)d\theta\\ &=\int \mathrm{Pr}(\tilde{Y}=1|\theta,y_1,\dots,y_n)p(\theta|y_1,\dots,y_n)d\theta\\ &=\int\theta (\theta|y_1,\dots,y_n)d\theta\\ &=\mathrm{E}[\theta|y_1,\dots,y_n]=\frac{a+\sum_{i=1}^n y_i}{a+b+n}\\ \end{align} \]
観測データ\(Y=y\)に基づく、区間\([l(y),u(y)]\)が、\(\theta\)に対する95%信用区間(credible interval)であるとは
\[ \mathrm{Pr}(l(y)<\theta<u(y)|Y=y)=0.95 \]
が成り立つことを言う
ランダムな区間\([l(y),u(y)]\)が、\(\theta\)に対する95%信頼区間(confidence interval)であるとは、データが得られる前に
\[ \mathrm{Pr}(l(Y)<\theta<u(Y)|\theta)=0.95 \]
が成り立つことを言う
データ\(Y=y\)を観測して、このデータを信頼区間の式に代入すると
\[ \mathrm{Pr}(l(y)<\theta<u(y)|\theta)= \left\{ \begin{array}{ll} 0 & (\theta\notin[l(y),u(u)]のとき) \\ 1 & (\theta\in[l(y),u(u)]のとき) \end{array} \right. \]
⇨頻度論的信頼区間ではデータ観測後の解釈がベイズより乏しい
ここで、\(\theta_{\alpha/2},\theta_{1-\alpha/2}\)はそれぞれ\(\theta\)の\(\alpha/2,1-\alpha/2\)事後分位点である
よって、それらの事後分位点に含まれない領域が\(100(1-\alpha)\)%信用区間となる
\(100(1-\alpha)\)%HPD領域は次を満たすパラメータ空間の部分集合\(s(y)\subset\Theta\)で構成される
確率変数\(Y\)が平均\(\theta\)のポアソン分布に従う(第2章参照)
\[ \mathrm{Pr}(Y=y|\theta)=\mathrm{dpois}(y,\theta)=\theta^ye^{-\theta}/y!\ \ (y\in\{0,1,2,\dots\}) \]
ポアソン分布の平均が大きい場合、その分散も大きくなる
(平均分散関係(mean-variance relationship))
標本モデル: \(Y_1,\dots,Y_n\)の平均\(\theta\)のポアソン分布からの独立同一標本
\[ \begin{align} \mathrm{Pr}(Y_1=y_1,\dots,Y_n=y_n|\theta)&=\prod_{i=1}^np(y|\theta)\\ &=\prod_{i=1}^n\frac{1}{y_i!}\theta^{y_i}e^{-\theta}\\ &=c(y_1,\dots,y_n)\times\theta^{\sum y_i}e^{-n\theta}\\ \end{align} \]
ポアソンモデルに対して、事後分布は以下
\[ \begin{align} p(\theta|y)&\propto p(\theta)\times p(y|\theta)\\ &\propto p(\theta)\times \theta^{\sum y_i}e^{-n\theta} \end{align} \]
\[ p(\theta)\equiv \mathrm{dgamma}(\theta,a,b)=\frac{b^a}{\Gamma(a)}\theta^{a-1}e^{-b\theta}\ \ (\theta,a,b>0) \]
\[ \begin{align} p(\theta|y)&= p(\theta)\times p(y|\theta)/p(y)\\ &= \left\{\theta^{a-1}e^{-b\theta}\right\}\times \left\{\theta^{\sum y_i}e^{-n\theta}\right\}\times c(y,a,b)\\ &= \left\{\theta^{a+\sum y_i-1}e^{-(b+n)\theta}\right\}\times c(y,a,b) \end{align} \]
\[ \mathrm{E}[Y|\theta]=\frac{a+\sum y_i}{b+n}\\ =\frac{b}{b+n}\frac{a}{b}+\frac{n}{b+n}\frac{\sum y_i}{n} \]
追加のデータに関する予測は、事後予測分布を用いて行う
\[ \begin{align} p(\tilde{y}|y)&=\int^\inf_0p(\tilde{y}|\theta,y)p(\theta|y)d\theta\\ &=\int\mathrm{dpois}(\tilde{y},\theta)\mathrm{dgamma}(\theta, a+\sum y_i, b+n)d\theta\\ &=\int\left\{\frac{1}{\tilde{y}!}\theta^{\tilde{y}}e^{-\theta}\right\} \left\{ \frac{(b+n)^{a+\sum y_i}}{\Gamma(a+\sum y_i)}\theta^{a+\sum y_i-1}e^{-(b+n)\theta} \right\}d\theta\\ &=\left\{\frac{(b+n)^{a+\sum y_i}}{\Gamma(\tilde{y}+1)\Gamma(a+\sum y_i)}\right\}\int^{\inf}_0 \theta^{a+\sum y_i+\tilde{y}-1}e^{-(b+n+1)\theta}d\theta \end{align} \]
最後の式の右辺第二項は、ガンマ密度なので
\[ 1=\int^{\inf}_0\frac{b^a}{\Gamma(a)}\theta^{a-1}e^{-b\theta}d\theta\ (a,b>0)\\ \int^{\inf}_0\theta^{a-1}e^{-b\theta}d\theta=\frac{\Gamma(a)}{b^a}\ (a,b>0) \]
この性質を使うと、事後予測分布は
\[ \begin{align} p(\tilde{y}|y)&=\left\{\frac{(b+n)^{a+\sum y_i}}{\Gamma(\tilde{y}+1)\Gamma(a+\sum y_i)}\right\} \times\left\{\frac{\Gamma(a+\sum y_i+\tilde{y})}{(b+n+1)^{a+\sum y_i+\tilde{y}}}\right\}\\ &=\frac{\Gamma(a+\sum y_i+\tilde{y})}{\Gamma(\tilde{y}+1)\Gamma(a+\sum y_i)} \left(\frac{b+n}{b+n+1}\right)^{a+\sum y_i} \left(\frac{1}{b+n+1}\right)^{\tilde{y}} \end{align} \]
これは、パラメータ(\(a+\sum y_i, b+n\))を持つ負の二項分布
\[ Y_{1,1},\dots,Y_{n_1,1}|\theta_1\sim\mathrm{i.i.d. Poisson}(\theta_1)\\ Y_{1,2},\dots,Y_{n_2,2}|\theta_2\sim\mathrm{i.i.d. Poisson}(\theta_2) \]
事前分布が\(\{\theta_1,\theta_2\}\sim\mathrm{i.i.d. gamma}(2,1)\)の場合、次の事後分布を得る
\[ \theta_1|\{n_1=111,\sum Y_{i,1}=217\sim\mathrm{gamma}(2+217, 1+111)=\mathrm{gamma}(219,112)\\ \theta_2|\{n_2=44,\sum Y_{i,1}=66\sim\mathrm{gamma}(2+66, 1+44)=\mathrm{gamma}(68,45) \]
これらの標本モデルと共役事前分布を組み合わせたときの事後分布は
\[ \begin{align} p(\phi|y_1,\dots,y_n)&\propto p(\phi)p(y_1,\dots,y_n|\phi)\\ &\propto c(\phi)^{n_0+n}\mathrm{exp}\left\{ \phi\times \left[n_0t_0+\sum_{i=1}^nt(y_i)\right] \right\}\\ &\propto p(\phi|n_0+n, n_0t_0+n\bar{t}/(n_0+n)) \end{align} \]